安全。感知和预测是现有的自主驾驶软件管道中的两个单独的模块,其中它们之间的接口通常被定义为手工挑选的几何和语义特征,例如历史代理轨迹,代理类型,代理人大小等。这样的接口导致可以在轨迹预测中使用的有用感知信息的丢失。例如,尾灯和刹车灯指示了车辆的意图,行人的头姿势和身体姿势告诉他们他们的注意力。此信息(如果未明确建模)在外部管道中被忽略。此外,随着感知和预测的分离,累积错误,无法在以后的阶段缓解。具体而言,轨迹预测因子使用的历史轨迹来自上游的pepleption模块,该模块不可避免地包含错误,从而导致预测性能下降。设计一个对上游输出误差可靠的trajectory预测变量是一个非平凡的任务[61]。最近的作品,例如Intentnet [3],FAF [35],PNPNET [31]提出了基于LIDAR的轨迹预测的端到端模型。他们遭受了几个限制:(1)他们无法利用相机中丰富的细粒度视觉信息; (2)这些模型使用卷积特征图作为其内部和跨框架内部的中间反复限制,因此遭受了多种可差异操作,例如在多对象跟踪中的对象解码中的非最大最大弹药和对象关联。总而言之,本文的贡献是三倍:1。为了应对所有这些挑战,我们提出了一条新型的管道,该管道利用以查询为中心的模型设计来预先轨迹,称为VIP3D(VI Sual Sual轨迹P缩减3D代理查询)。VIP3D消耗了来自周围摄像机和高清图的多视频视频,并以端到端和简洁的流方式使代理级级的未来轨迹预测,如图1所示。具体来说,VIP3D将3D代理查询作为整个管道的接口,每个查询都可以映射到(最多最多)环境中的代理。在每个时间步骤中,查询来自多视图图像的汇总视觉特征,学习代理的时间动力学,对代理之间的关系建模,并最终为每个代理产生可能的未来传播。在整个时间内,3D代理查询都在存储库中维护,该查询库可以初始化,更新和丢弃以跟踪环境中的代理。此外,与以前的预测方法不同,VIP3D仅使用先前的时间戳和当前时间戳的传感器特征的3D代理查询,这些预测方法是使用历史框架的历史轨迹和特征地图,从而使其成为简洁的流媒体方法。vip3d是第一种完全可区分的基于视力的方法,可以预测拟驱动器的未来轨迹。而不是使用手工挑选的fea-
主要关键词